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摘要 : [目的 /意义 ] 现 有 新 闻 文 档 实体 排序 研究 大 多 以 文档 或 实体 为 中 心 , 如 文本 分 类 、 实 体 链接 等 ,关注 
实体 在 文本 中 的 重要 性 的 研究 较 少 ,本 研究 探讨 基于 重要 性 的 新 闻 文 档 实 体 排 序 。[ 方 法 /过 程 ] 给 定 一 篇 文 
档 , 判 断 文 档 中 实体 相对 文档 而 言 的 重要 性 ,并 基于 此 对 实体 进行 排序 。 在 搜狗 全 网 新 闻 数 据 集 上 进行 实验 ， 
并 利用 NDCG 和 逆序 对 比率 两 个 指标 对 实体 排序 结果 进行 评价 。[ 结果 /结论 ] 实验 结果 表明 ,基于 实体 频率 、 
TF x* IDF 45 & Jl, TextRank. 等 的 方法 以 及 集成 方法 都 达到 了 较 好 的 效果 ,基于 聚集 系数 的 方法 效果 一 般 。 其 中 
基于 TF = IDF 的 方法 NDCG 值 为 95.86% ,是 该 指标 下 的 最 好 结果 ;基于 集成 方法 的 逆序 对 比率 值 为 84.46%， 
是 该 指标 下 的 最 好 结果 。 
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关键 实体 的 概念 。 然 而 ,对 实体 在 文档 中 的 重要 性 进 


人 是 文 簿 中 和 性 的 语义 背 元 六合 关 下 富 。 专门 分 析 的 研究 较 少 。 本 研究 的 对 象 是 实体 在 文 冰 
5 H alz Lo d 4 Ey AG 富 
B. en o 生前 实体 POEET MAREA AER GL A SCITUR 
yn ADs 年 来 学 处 A {£o y3 F À : z 
- in 有 2 对 重要 性 ,并 根据 实体 间 的 相对 重要 性 对 实体 进行 排 
HERBES CL Sc HERI ,实体 链接 站 ,实体 关 sae MCA s il 
ES C a dopage 序 。 传 统 实体 排序 主要 分 为 两 种 ,相关 实体 排序 和 
系 铜 取 " 等 ,三 者 均 属 于 信息 抽取 的 范畴 。 命 名 实体 Prud di ~ 
e AD a 向 查询 的 实体 排序 。 相 关 实 体 排序 是 指 给 定 一 个 实体 
误 各 是 指 识别 出 文档 中 代表 命名 实体 的 文本 片段, 合生 证 的 限定 条 作 在 大 个 业 林 集中 时 找 呈 只 是 下 人 
谷 误 体 包括 7 类 , 即 人 和 名、 地 和 名、 机 构 和 名、 百分比 时间、 0 ADORA o à pic Fa á 
日 钙 、 货 市。 实体 链接 是 指 将 文档 中 代表 实体 的 文本 CIT BGEATEMISUE. MEARE ERE, M 
上 葵 与 知识 库 中 的 特定 条 目 相 链接 的 过 程 。 通 常情 况 EAA web 查询 ,返回 忆 查 询 最 相关 的 实体 。 此 一 者 


下 组 名 实体 识别 是 实体 链接 的 第 一 步 , 即 先 要 确定 代 的 搜索 范围 为 整个 文档 集中 的 所 有 实体 。 而 本 研究 


志 实 体 的 文本 片段 边界 ,再 通过 实体 消 玻 方法 唯一 确 。 的 任务 , 则 是 给 定 一 篇 文档 ,根据 文档 中 实体 对 该 文 档 
定 实体 ,并 链 向 给 定 的 知识 库 , 如 Wikipedia , Freebase , 的 重要 性 进行 排序 ,与 传统 的 实体 排序 任务 之 间 有 本 
YAGO 等 。 实 体 关 系 抽取 是 指 从 非 结 构 化 的 文本 中 抽 质 区 别 。 新 闻 文 档 是 互联 网 中 最 常见 的 文本 类 型 之 
取 结 构 化 数据 ,表现 为 主语 .谓词 .宾语 三 元 组 的 形式 ， ”一 , 相 比 其 他 类 型 的 文档 ,新 闻 文档 包含 的 实体 数量 及 
即 < Entityl , Relation, Entity2 > ,其 中 Entityl .Entity2 为 。 类 型 较 多 。 基 于 此 ,本 人 研究 选择 以 新 闻 文 档 为 例 进行 
两 个 实体 , Relation 是 预定 义 的 实体 间 关 系 。 实 体 相关 ”实体 重要 性 排序 研究 。 由 于 实体 -文档 间 重 要 性 关系 
研究 在 信息 检索 .知识 库 构建 问答 系统 等 领域 有 重要 ”的 相关 研究 较 少 ,为 使 本 研究 可 行 易 懂 , 本 研究 将 实体 


的 应 用 价值 。 类 型 局 限于 人 物 、 地 点 、 机 构 3 种 。 
实体 重要 性 这 一 概念 在 现 有 研究 中 已 受到 一 定 关 本 研究 关注 实体 在 文档 中 的 重要 性 ,通过 定义 实 


注 。 例 如 M. Liu 等 中 在 进行 新 闻 摘要 的 研究 中 提 到 了 — 体 在 文档 中 的 4 个 重要 性 等 级 ” ,基于 实体 频率 .聚集 
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系数 .TF  IDF V fri Ui |TextRank 以 及 集成 方法 判别 实 
体 与 实体 间 的 相对 重要 性 ,进而 对 实体 进行 排序 ,通过 
实验 比较 不 同 的 实体 重要 性 度量 方法 的 效果 。 本 研究 
具有 一 定 的 理论 意义 :通过 分 析 实 体 在 文档 中 的 重要 
性 ,帮助 文本 分 析 任 务 明 确 分 析 重 点 (重要 实体 ) , 减 
小 噪声 (边缘 实体 ) 干扰 ;促进 面向 实体 的 知识 组 织 ， 
避免 在 对 实体 信息 进行 挖掘 时 将 不 相关 文档 纳入 考虑 
范围 。 本 研究 可 以 应 用 于 新 闻 分 类 / 聚 类 ,新闻 推荐 等 
方面 。 利 用 本 研究 的 方法 判断 实体 的 重要 性 ,再 融合 
知识 库 中 实体 的 有 关 属 性 ,可 以 辅助 一 些 文本 挖 据 工 
作 。 在 门户 网 站 中 ,如 果 发 现 用 户 对 特定 实体 感 兴趣 ， 
则 可 优先 推荐 包含 该 实体 在 其 中 的 较为 重要 的 文档 ， 
提高 所 推荐 文档 的 点 击 率 。 


2 国内 外 研究 现状 


和 时间” 地 点 "“ 人 物 " 是 新 闻 报 道 的 基本 要 素 。 


重要 性 ,识别 重要 句子 和 关键 实体 。 与 本 研究 相同 ， 
M. Liu 等 也 关注 实体 在 单 篇 文档 中 的 重要 性 。 其 
与 本 研究 的 区 别 在 于 ,该 研究 并 未 对 关键 实体 给 出 具 
体 的 定义 , 且 其 重点 在 于 新 闻 摘要 问题 本 身 ,因此 运用 
了 多 种 信息 ,包括 查询 词 新闻 标 题 等 。 相 比 之 下 ,本 
研究 更 着 重 研究 实体 重要 性 本 身 。M，Liu 等 ”提出 
了 一 种 对 某 一 时 间 窗 口内 的 重要 事件 和 关键 实体 进行 
识别 的 方法 ,从 新 颖 性 ( 即 某 实 体 在 该 时 间 窗 口 的 上 升 
趋势 ) 和 流行 度 ( 即 某 实 体 在 该 时 间 窗 口内 出 现 的 频 
数 ) 来 判断 实体 的 重要 性 程度 ,其 更 侧重 于 宏观 分 析 实 
体 在 整体 环境 下 的 重要 性 ,而 本 研究 则 着 重 判 断 实 体 
在 单 篇 文档 中 的 重要 性 ,与 时 间 、 趋 势 无 关 。 


3 ”基于 重要 性 的 实体 排序 方法 


新 闻 文 档 实体 重要 性 排序 是 指 给 定 一 篇 新 闻 文 
档 , 抽 取 其 中 包含 的 实体 ,并 用 一 定 的 方法 判断 实体 重 


国 半 一 些 学 者 在 研究 新 闻 摘要 时 探讨 了 新 闻 要 素 重要 
ERTE, EAE O jeh TAE FREER I 
新 闻 摘 要 提取 方法 ,该 方法 将 时 间 、 地 点 人物、 团体 机 
梅 砍 为 新 闻 事件 要 素 ( 本 研究 称 其 为 实体 ) ,并 采用 中 
种 院 分 词 系统 ICTCLAS 识别 事件 要 素 ,从 多 篇 新 闻 广 
档 电 抽取 事件 要 素 组 ,利用 事件 要 素 出 现 的 频率 对 事 
件 诺 素 进 行 加 权 。 吴 玲 达 等 ”进行 多 文档 摘要 时 利用 
到 字 基 本 局 部 话题 句 群 和 扩展 局 部 话题 句 群 ,其 中 在 
鸡 萤 基本 局 部 话题 句 群 时 ,首先 为 基本 新 闻 要 素 (时 
间 & 地 名 人 名 机构 团 体 ) 赋 权 ,其 权 值 为 新 闻 要 素 的 


要 性 ,最 后 根据 实体 重要 性 大 小 对 实体 进行 排序 。 问 
题 的 形式 化 定义 如 下 :输入 文档 d, 且 4 包含 实体 |e,， 
es，,…,e,| ,其 中 e 表示 文档 d 中 的 第 i 个 实体 ,输出 是 
实体 列表 e(1) >e(2) >… >e(l(n) ,其 中 e(i) 是 重要 性 
排 在 第 i 位 的 实体 。 假设 新 闻 文 档 d= ipis puo, 


Pal RP p: Æ d 的 第 i 段 ,为 了 给 实体 重要 性 判断 方 


法 提供 必要 的 输入 ,本 研究 首先 对 d 进行 以 下 预 处 理 : 
对 段落 p, 进行 分 句 处 理 、 命 名 实体 识别 。 判 断 实 体重 
要 性 的 指标 有 实体 频率 TE * IDF | RR R E fri I 88 
TextRank 等 。 本 研究 不 仅 提 出 基于 以 上 指标 的 方法 ， 


TESIDF 值 , 然 后 利用 聚 类 方法 生成 基本 局 部 话题 句 
群 6 这 些 研究 在 一 定 程度 上 与 本 研究 类 似 ,都 是 研究 
新 闻 文档 中 的 实体 重要 性 。 而 本 研究 是 对 给 定 的 一 篇 


而 且 提出 将 实体 频率 、 分 布 炉 、 实 体 在 共 现 网 络 中 的 
TextRank 值 等 3 个 局 部 特征 指标 进行 加 权 平 均 ,并 乘 
以 IDF 这 一 全 局 特征 的 集成 方法 ,以 解决 新 闻 文 档 实 


文档 ,运用 不 同 的 方法 判断 文档 中 不 同 实体 的 相对 重 
要 性 ,并 基于 此 对 实体 进行 排序 。 

国外 一 些 研究 者 提出 了 关键 实体 这 一 概念 ,并 据 
此 进行 新 闻 摘 要 等 研究 工作 。 例 如 K. Kiritoshi 等 
定义 了 新 闻 文 档 中 关键 实体 的 概念 , 即 新 闻 文 档 中 最 
重要 的 一 组 实体 ,并 用 TF * IDF 的 方法 识别 关键 实体 。 
但 是 其 研究 问题 是 新 闻 推 荐 , 即 给 定 一 篇 新 闻 文 档 , 按 
照 与 该 新 闻 文 档 相 关 性 的 大 小 对 其 他 新 闻 文档 进行 排 
序 。 而 本 研究 是 给 定 一 篇 文档 ,根据 实体 对 该 文档 的 
重要 性 ,对 实体 进行 排序 。M.，Liu 等 ”研究 了 基于 实 
体 信 息 的 新 闻 摘要 问题 ,以 查询 词 .新闻 标题 ,句子 KE 
体 为 节点 ,定义 了 标题 - 句子 关系 、 查 询 词 - 句子 关 
系 、 句 子 -句子 关系 、 句 子 -实体 关系 等 4 种 关系 , 建 
立 关系 图 ,进而 利用 PageRank 算法 判断 句子 和 实体 的 
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体重 要 性 排序 的 问题 。 
3.1 基于 实体 频率 的 方法 

一 个 关于 实体 在 文档 中 重要 性 的 基本 假设 为 :如 
果实 体 。 在 新 闻 文 档 4 中 出 现 的 次 数 越 多 ,那么 实体 
e; 与 文档 d 的 相关 性 可 能 就 越 高 ,其 在 该 文档 中 的 重 
要 性 越 高 。 由 于 要 研究 实体 在 单 篇 文档 中 的 重要 性 ， 
笔者 认为 实体 的 局 部 特征 对 于 判断 实体 在 单 篇 文档 中 
的 重要 性 尤为 关键 。 统 计 文 档 中 各 实体 出 现 的 次 数 ， 
并 根据 文档 中 实体 出 现 的 总 次 数 进 行 归 一 化 处 理 , 见 
公式 (1)。 


count, 


EF, 一 一 一 一 公式 (1) 
Xj. count; 


其 中 count, 表示 实体 €, 在 文档 中 出 现 的 次 数 。 
EF ( entity frequency ) 即 实体 频率 , EF, 表示 实体 e 相对 


^E HRTII 
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于 文档 中 其 他 实体 的 频率 ,以 度量 实体 的 重要 性 。 
基于 实体 频率 的 方法 简单 直观 ,易于 理解 和 解释 。 
其 局 px ,由 于 某 些 实体 的 出 现 频数 相同 ,在 缺乏 


PERE 条 件 下 , 仅 利 用 实体 频率 难以 对 它们 进行 
排序 。 这 ceca 的 新 闻 文本 中 体现 得 更 为 明 
显 。 


3.2 ”基于 TF x IDF 的 方法 

道 文本 频率 (inverse document frequency, IDF) 是 
一 种 衡量 实体 区 分 能 力 的 指标 。 基 于 TF * IDF 的 方法 
融合 实体 频率 和 逆 文 本 频率 计算 实体 的 重要 性 , 见 公 
式 (2)。 


TF  IDF, = EF, * log 


N 
公式 
psi 2*0) 


ve F, 表示 实体 频率 ,NN 表示 整个 文档 集中 文档 
Drs DF, 表示 实体 。 出 现 其 中 的 文档 数量 。 为 避 
PERAJ 0, 这 里 采用 了 加 1 平滑 方法 , 即 对 所 有 
祷 谍 文档 频数 加 1。 
相 比 EF 这 一 基于 单一 文档 的 特征 ,IDF 是 全 局 特 
igitan 考虑 局 部 特征 EF 和 全 局 特征 IDF ,能 够 
登 考 虑 实体 在 局 部 和 全 局 的 重要 性 。 


C 中 在 信息 检索 和 
idt ————Á— 
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F ATH e Reip ee IG ii 
应 用 反映 实体 聚集 


TEN 指标 判断 实体 的 重要 性 。 

《利用 实体 在 文档 中 的 空间 分 布 计算 实体 的 聚集 系 
数 。 具 体 地 ,假设 实体 e; 在 文档 d 中 出 现 的 位 置 为 
[Pos PP PP_|endl ,这 里 假设 实体 。 出 现 
n 次 ,p; 表示 ei 第 i 次 出 现 的 起 始 位 置 且 p。=0 表示 文 
档 的 起 始 位 置 ,p_| end | 表示 文档 的 结束 位 置 , 则 实体 


出 现 的 距离 为 |p, -Pis Ps parts Pa Paai l ,实体 之 
间 的 平均 距离 为 ; 
1 i uc : 
I2] X€M(G-4)25—R AX) 
TL n 


距离 的 标准 差 为 : 


5 NES Di (Digi -pi) -1) 公式 (4) 


聚集 系数 的 定义 如 下 : 
c= s/l 公式 (5) 
其 中 ,/ 为 实体 之 间 的 平均 距离 ,s 代表 距离 的 标准 
差 ,c 表示 聚焦 系数 。 聚 集 系 数 越 大 ,实体 重要 性 越 大 。 


这 是 因为 一 般 认 为 重要 性 程度 高 的 实体 在 文档 局 部 区 
域 中 频繁 出 现 ,其 平均 距离 很 小 。 因 此 本 研究 将 计算 
新 闻 文 档 中 所 有 出 现 的 实体 的 聚集 系数 ,将 聚集 系数 
高 的 实体 视 为 重要 实体 ,进行 降序 排列 ,从 而 实现 对 实 
体 的 排序 。 值 得 注意 的 是 ,文档 的 长 度 对 实体 的 聚集 
系数 会 有 显著 影响 。 因 此 本 研究 对 实体 出 现 的 位 置 进 

行 归 一 化 处 理 , 例 如 实体 e; 在 文档 d 的 第 i 次 出 现 的 
位 置 为 p,, 且 文档 d 的 长 度 为 1, 则 实体 6 第 i 次 出 现 
的 位 置 被 处 理 为 p,/1。 这 样 ,就 可 以 利用 归 一 化 后 的 
位 置信 息 计算 实体 的 聚集 系数 。 
3.4 TEES A 

1949 4E rd Je HY fi E Ai (entropy ) 的 概念 。 对 

于 同一 信息 源 的 所 有 可 能 事件 ,其 发 生 的 概率 为 有 p;p， 
pug ,香农 提出 一 种 度量 系统 不 确定 性 的 指标 s Cp, s 
公式 如 下 : 
s(pi;sps'"* Pa) = - KÈ; pi log p; 公式 (6) 
Hep KEDE. f ARRA A TF ER: Ds 
p,) 是 连续 的 ;@ 当 p; 2 1 2 n 时,s (pi;ps*… 


Just s 


(pi ipt 


p,) 达 到 最 大 值 ,并 且 s(pispa p) A&A T n 的 单调 递 
增 函 数 。 
假设 文档 d 由 n 部 分 构成 , 且 文 档 的 第 i 部 分 共 包 


合 个 实体 ,实体 6 在 第 ;部 分 出 现 的 频数 为 ni.(e)。 
显然 ,实体 在 文档 4 中 出 现 的 总 次 数 为 Zn ,实体 。 
在 文档 中 出 现 的 总 次 数 为 n (0 ,实体 e, 在 文档 
第 ; 部 分 的 相对 频率 为 F(e ) =m(e ) =n; 

本 研究 定义 实体 。 在 第 ;部 分 分 布 的 概率 值 为 了 
(e) D gg sedent ARNE, KIR e, 
分 布 的 信息 炳 为 ; 

i < 


1 


In(n) Xiab( i pe) 


公式 (7) 
其 中 0 是 常量 值 K, 并 且 能 保证 信息 以 S(e) 


在 0 -1 之 间 。 根 据 段落 对 文档 进行 划分 ,计算 文档 中 
所 有 实体 分 布 的 信息 炉 并 进行 降序 排列 ,从 而 对 实体 
重要 性 进行 排序 。 
3.5 基于 TextRank 的 方法 

对 于 输入 文档 4 2/5 ;s,… s, 8 ,假设 文档 中 存在 
个 实体 fe ;e,… e, g ,首先 构建 加 权 无 向 图 G(V;E) ,其 
中 V 表示 图 中 节点 集合 ,这 里 是 指 文档 中 的 实体 e; E 
表示 图 中 边 的 集合 ,根据 实体 的 共 现 关系 确定 。 具 体 
地 , 若 实体 e 和 同时 出 现在 句子 S, 中 , 则 二 者 的 共 


99 


图 二 情报 三 作 


第 62 卷 第 11 期 2018 年 6 H 


hina n rcrEBHIII 
C | ina V€ 1 F HH [ l) 


现 次 数 加 1。 统 计 实 体 之 间 的 共 现 次 数 , 用 公式 (8) 计 
算 Ee; ;e;) 的 权重 : 
coocur ( e; ;e;) 
Xe, 28e, coocur(e;;e,) 


3 0 


coocur(e,;e,) >0 


otherwise 
公式 (8) 

其 中 cooccur(e,;e)) 表示 实体 e; 和 的 共 现 次 数 ， 
Set, 表示 所 有 与 6; 共 现 过 的 实体 集合 。 之 所 以 这 样 计 
算 ECei;ej) 的 权重 ,是 因为 经 常 共 现 的 实体 之 间 存 在 
特定 的 语义 关系 , 且 共 现 的 次 数 越 多 ,实体 之 间 存 在 语 
义 相 关 的 可 能 性 越 大 。 本 研究 利用 PageRank 算法 计 
算 节 点 的 PR 值 ,公式 如 下 : 

PR(e;)=(1-d) +d- X e, 28et, Wp - PR(e,) 
A) 
Lr PR(Ce Mss ER p PageRank 值 ,d zz BH. 


à "Tu soia. 该 公式 符合 PageRank 的 基本 


排序 方法 进行 实体 重要 性 等 级 的 人 工 标注 ,并 且 以 特 
定 的 格式 进行 存储 , 见 图 1。 最 后 根据 NDGG (normal- 
ized discounted cumulative gain ) 以 及 逆序 对 比率 两 个 指 
标 对 采用 不 同 的 实体 重要 性 排序 方法 的 结果 进行 评 
价 。 
4.1 新 闻 数 据 集 

本 研究 用 搜狗 实验 室 提供 的 全 网 新 闻 数 据 进行 评 
W^ 。 该 数据 集 收集 了 2012 年 6 月 -7 月 期 间 国内 、 
司 际 、 人 体育、 社会、 娱乐 等 18 个 频道 的 新 闻 数 据 , 共 
1 290 000 多 篇 新 闻 文 档 。 首 先 对 新 闻 的 正文 部 分 进行 
分 句 、 命 名 实体 识别 等 预 处 理 。 文 本 内 容 是 本 研究 的 
主要 输入 ,部 分 不 包含 文本 内 容 的 新 闻 被 过 滤 。 
4.2 标注 数据 集 
4.2.1 实体 重要 性 等 级 定义 ”不同 实体 在 文档 中 的 
重要 性 有 所 不 同 ,包括 对 文档 内 容 最 为 重要 的 实体 、 也 
有 只 是 被 简单 提 及 1 次 的 且 与 文档 主题 无 关 的 实体 。 
本 文 借鉴 文献 [5] 中 的 划分 ,根据 实体 在 文档 中 的 重 


共 现 的 实体 越 多 ,实体 。 越 重要 ;与 
闪现 的 实体 重要 ,实体 。; BRER, 


实体 的 重要 性 可 能 由 多 个 因素 决定 ,因此 根据 单 
-入 标 判断 实体 的 重要 :性 可 能 会 存在 偏差 。 例 如 实体 
P oo A 重要 性 ,但 是 一 个 实体 的 


要 性 不 同 ,把 实体 分 为 核心 实体 (等 级 为 4) .重要 实体 
(等 级 为 3)、 弱 相关 实体 (等 级 为 2) 和 边缘 实体 (等 级 
为 1) 。 重 要 性 大 小 关系 为 :核心 实体 > 重要 实体 > 35 
相关 实体 > 边缘 实体 。 其 中 核心 实体 是 指 文档 围绕 着 
这 些 实体 展开 的 或 者 这 些 实体 与 文档 的 相关 度 明 显 高 
于 其 他 实体 ;重要 实体 是 指 这 些 实体 在 新 闻 文档 中 发 


出 于 频率 高 并 不 一 定 意味 着 它 对 每 一 篇 文档 都 很 重 
外 ， en 频率 较 高 ,但 是 这 些 实 
体 塞 能 只 在 文档 的 某 一 部 分 出 现 ,而 对 文档 整体 的 影 
响 过 小 。 因 此 实体 在 文档 中 分 布 也 是 影响 实体 重要 性 
EE 
本 研究 提出 基于 集成 的 方法 ,对 实体 的 实体 频率 、 


挥 了 重要 作用 ; 弱 相 关 实 体 是 指 这 些 实体 跟 文 档 不 是 
直接 相关 的 ,但 是 与 文档 的 其 他 实体 直接 相关 ;边缘 实 
体 是 指 这 些 实体 在 文档 中 只 是 简单 地 提 及 ,与 新 闻 的 
相关 程度 很 低 。 

4.2.2 标注 结果 本 研究 从 新 闻 语 料 中 随机 抽取 了 
50 篇 文档 ,对 其 中 的 实体 进行 了 实体 重要 性 等 级 人 工 


fe Ei Sic Date HB D £5 rp fS] TextRank 值 等 3 个 局 部 

特征 指标 进行 加 权 平 均 ,并 乘 以 IDF 这 一 全 局 特征 。 

基于 集成 的 方法 计算 实体 重要 性 的 公式 如 下 : 

TR) - IDF 
公式 (10) 
其 中 a,b,c 为 各 局 部 特征 的 权重 , 且 有 a+b+c= 

1 ,该 权重 根据 启发 式 的 方法 得 到 。 


c-index = (a * EF +b * Entropy +c， 


4 新 闻 文 档 实体 重要 性 排序 实验 


实验 首先 从 搜狗 实验 室 提供 的 全 网 新 闻 数 据 集 中 
获取 以 XML 格式 存储 的 新 闻 数 据 ,然后 对 其 进行 标 


记 、 分 段落 分 句 以 及 命名 识别 等 预 处 理 , 并 将 预 处 理 
结果 以 XML 格式 保存 下 来 ;然后 通过 对 实体 重要 性 等 
级 进行 定义 ,对 随机 抽取 的 50 条 新 闻 语 料 应 用 不 同 的 
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标注 。 按 照 特 定 的 格式 进行 存储 ,如 图 1 所 示 : 


d4264703fd6f3339-5d2f32f06cef7000 俄罗斯 :3 É: 吴鹏 根 :4 
波 波 娃 :2 dB: 科勒 尔 :2 WKE: ME: ” 帕 尔 默 :2 
中 国 队 :2 ”波兰 :1 博 斯 玛 :2 北京 :1 荷兰 :1 延展 :0 


1 标注 数据 格式 


TRMURL A 张 希 :4 
Efl 拉 里 萨 :2 


其 中 d4264703f96f3339 - 5d2f32f06cef7000 KI X 
档 编 号 ,后 面 是 文档 中 的 实体 及 重要 性 等 级 。 值 得 注 
意 的 是 ,本 研究 使 用 的 命名 实体 识别 工具 可 能 会 出 现 
实体 识别 错误 的 现象 ,对 该 类 实体 的 重要 性 等 级 判定 
为 0。 
4.3 排序 结果 评价 指标 

本 研究 属于 排序 问题 ,NDCG 和 逆序 对 比率 两 个 
指标 可 以 对 排序 结果 进行 评价 。 
4.3.1 NDCG NDCG 是 一 种 对 排序 结果 进行 评价 的 


Chin 
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陆 娜 ， 周 鹏 程 ， 武 川 . 新 闻 文 档 实体 重要 性 排序 研究 [J]. 图 书 情报 工作 ,2018 ,62(11 ) :97 - 102. 


指标 ,该 评价 方法 在 信息 检索 中 使 用 较为 普遍 。NDCG 
有 两 点 基本 假设 ,为 了 更 好 地 解释 本 研究 的 内 容 , 笔 者 
对 这 两 点 假设 进行 一 定 修改 后 如 下 :中 重要 性 高 的 实 
体 比 重要 性 低 的 实体 更 有 用 ,更 能 表示 文档 的 主要 信 
息 ;@) 重 要 性 越 低 的 实体 的 排序 越 低 , 价 值 越 低 ,因为 
这 样 的 实体 不 是 核心 实体 ,未 能 代表 文档 的 主要 信息 。 

对 于 排 在 n 位 的 实体 ,其 NDCG 的 计算 公式 如 下 : 


J 公式 (11) 

其 中 2Z, 是 指 规范 化 因子 ,保证 N(n)2[0;1];r(j) 
是 指 第 j 个 结果 的 重要 性 等 级 ;2" -1 是 指 第 j 个 结 
果 的 贡献 值 ,各 类 实体 的 重要 性 等 级 及 其 贡献 值 见 表 
1;log(1 +j) 是 指 位 置 折扣 ,对 数 以 2 为 底 。 对 于 错误 
识别 的 命名 实体 ,标注 者 将 实体 的 重要 性 等 级 标注 为 


0 ,s 


N(n) 2Z,Xj 


表 1 实体 重要 性 等 级 及 其 贡献 值 
重要 性 重要 性 等 级 贡献 值 
核心 实体 4 15-24-1 
重要 实体 3 7=23 -1 
弱 相 关 实体 2 3=22 -1 
边缘 实体 1 1221-1 


逆序 对 比率 ”假设 。 和。 是 新 闻 文 档 中 的 两 
AK ELS e, 的 重要 性 等 级 高 于 ej ,理想 情况 下 。 
排序 在 。 之 前 , 则 <,,6 > 是 一 个 正 序 对 。 如 果 。 HE 
PHE e, 之 后 , 则 «ese; 是 一 个 逆序 对 。 逆 序 对 比率 
是 禾 排 序 结果 中 逆序 对 数目 占 标注 数据 中 正 序 对 数目 
的 忆 例 。 此 外 ,论文 约定 同一 重要 性 等 级 的 实体 之 间 
既而 是 正 序 对 ,也 不 是 逆序 对 。 
4.3.3 ”两 个 指标 的 关系 ”NDCG 和 逆序 对 比率 都 可 
以 用 来 评价 实体 重要 性 排序 结果 ,二 者 在 一 定 程度 上 
呈正 相关 关系 ,但 是 这 并 不 意味 着 二 者 存在 线性 关系 。 
例如 ,对 于 同一 篇 文档 , 某 种 方法 产生 了 一 个 核心 实体 
与 重要 实体 的 逆序 对 , 另 一 种 方法 产生 了 一 个 弱 相 关 
实体 与 边缘 实体 的 逆序 对 ,两 个 方法 的 逆序 对 数目 相 
同 ,从 而 首 序 对 比率 也 相同 。 但 是 由 于 前 一 个 逆序 对 
的 实体 更 加 重要 ,其 折扣 的 贡献 值 更 大 , 故 前 者 的 ND- 
CG 值 大 于 后 者 。 
4.4 ”实验 结果 及 分 析 

表 2 呈现 了 实体 重要 性 排序 实验 的 结果 。 从 表 2 
中 可 以 看 出 ,基于 TF * IDF 的 实体 重要 性 判断 方法 ,其 
NDCG 值 达 到 最 大 。 其 与 基于 实体 频率 的 方法 的 区 别 
在 于 ,融合 了 实体 的 全 局 特征 道 文档 频率 。 相 比 之 下 ， 
其 效果 有 了 提升 ,其 中 NDCG 值 提升 了 2.71% ,逆序 对 


比率 提升 了 2.6% 。 而 融合 实体 全 局 特征 的 集成 方法 
也 获得 了 较 好 的 效果 ,该 方法 的 逆序 对 比率 值 达 到 
0. 844 6 ,是 所 有 方法 中 的 最 高 

R2 实体 重要 性 排序 实验 结果 


方法 NDCG 道 序 对 比率 
实体 频率 0.933 3 0.818 3 
聚集 系数 0.757 3 0. 68 
[ei i 0.926 9 0. 801 5 
TextRank 方法 0.915 8 0. 806 2 
TF s IDF 0.958 6 0.839 6 
集成 方法 0.957 8 0. 844 6 


本 研究 在 已 有 研究 的 基础 上 通过 利用 基于 实体 频 
A TF x* IDF RE R Z fri fili TextRank 等 方法 以 及 
集成 方法 ,对 文档 的 实体 重要 性 进行 排序 实验 。 相 比 
现 有 研究 ,本 研究 关注 了 一 个 相对 较 新 的 研究 问题 , 即 
面向 单 文档 的 实体 重要 性 排序 ,并 对 该 问题 进行 了 初 
步 探索 。 本 研究 对 搜狗 全 网 新 闻 数 据 集 进行 处 理 , 在 
此 数据 集 上 进行 分 类 实验 ;定义 了 实体 重要 性 等 级 并 
从 数据 集中 随机 抽取 50 篇 进行 实体 重要 性 等 级 标注 ; 
利用 NDCG 和 逆序 对 比率 两 个 指标 评价 排序 结果 。 实 
验 结果 表明 ,基于 陛 集 系数 的 方法 效果 一 般 , 而 其 他 方 
法 能 获得 较 好 的 效果 。 基 于 聚集 系数 的 方法 假设 聚集 
系数 越 大 ,实体 越 重要 ,然而 ,该 假设 并 不 总 是 成 立 。 
在 某 些 文档 中 边缘 实体 的 聚集 系数 很 高 , 而 核心 实体 
的 聚集 系数 较 低 。 

尽管 本 研究 的 实验 取得 了 一 定 的 效果 ,但 是 也 存 
在 不 足 之 处 。 本 研究 只 考虑 了 人 物 \、 地 点 机构 等 3 类 
实体 ,但 是 某 些 类 型 的 新 闻 文 档 可 能 不 包含 这 3 类 实 
体 , 例 如 “健康 ”类 的 新 闻 。 实 体 本 身 的 概念 比较 广 
泛 , 既 包括 人 名 、 地 名 、 机 构 名 等 具体 事物 ,还 包括 关 
系 .概念 等 抽象 事物 。 这 些 抽象 实体 的 属性 对 处 理 新 
闻 文 档 也 具有 重要 意义 。 在 今后 的 研究 中 需要 引入 更 
多 的 实体 类 型 ,使 得 研究 更 加 合理 .更 具 意义 。 此 外 ， 
本 研究 的 数据 来 自 人 工 标 注 ,可 能 存在 主观 偏差 。 理 
想 情 况 下 要 尽 可 能 地 从 用 户 生成 内 容 中 挖掘 相关 标 
记 , 一 方面 便于 训练 机 融 学 习 算法 ,为 一 方面 也 便于 大 
规模 测评 ,更 好 地 提升 效果 。 
参考 文献 : 
[ 1] 张 晓 艳 , 王 挺 , 陈 火 旺 ， 命名 实体 识别 研究 [J]. 计算 机 科学 ， 
2005 , 32(4) :44 -48. 
[2] 陆 伟 ,武川 . 实体 链接 研究 综述 [J]， 情报 学 报 , 2015 (1) :105 

-112. 


E 


101 


图 二 情报 三 作 


第 62 卷 第 11 期 2018 年 6 H 


[3] 车 万 翔 , 刘 挺 , 李 生 . 实体 关系 自动 抽取 [J]. 中 文 信息 学 报 ， 
2005, 19(2) :1 -6. 
[ 4 ] LIU M, LIU Y, XIANG L, et al. Extracting key entities and sig- 


nificant events from online daily news[ C ]// LI T. Proceedings for 
the 9th international conference on intelligent data engineering and 
automated learning. Berlin; Springer-Verlag, 2008 :201 — 209. 

[5 ] TRANI S, LUCCHESE C, PEREGO R, et al. SEL; a unified al- 
gorithm for salient entity linking and saliency detection[ C ]// SAB- 
LATNIG R, HASSAN T. Proceedings for the 2016 ACM symposi- 
um on document engineering. New York; ACM, 2016,85 - 94. 

[6 ] SERI ECL, ILEA, Sp. 基于 事件 要 素 加 权 的 新 闻 摘 要 提取 

方法 [J]. 计算 机 科学 , 2016(1 ) :237 - 241. 

[7 ] 吴 玲 达 , 雷 震 , 老 松 杨 , 等 . 基于 局 部 话题 句 群 的 事件 相关 多 文 

档 摘 要 研究 [JJ]. 计算 机 仿真 , 2006, 23(11) :263 -267. 

[ 8 ] KIRITOSHI K, MA Q. Named entity oriented related news ranking 

[M]. Berlin: Springer International Publishing, 2014 :82 — 96. 
[ 9-T LIU M, LIU Y, XIANG L, et al. Single Chinese news article sum- 


marization based on ranking propagation [ C ]// 2008 International 


Jsymposium on knowledge acquisition and modeling. Piscataway: 

EEE , 2008 :779 -783. 

"BEEFERMAN D, BERGER A, LAFFERTY J. A model of lexical 

ttraction and. repulsion [ C]// COHEN P R, WAHLSTER W. 

roceedings of the eighth conference on European chapter of the 

ssociation for Computational Linguistics. Stroudsburg: Associa- 

on for Computational Linguistics, 1997 :373 —380. 

[ M MNIESLER T. R. , WOODLAND P. C. Modelling word-pair relations 
> jiri a category -based language model[ C ]// 1997 IEEE international 

Aconference on Acoustics, Speech, and Signal Processing. Piscai- 


"away; IEEE, 1997, 2. 795 - 798. 


[12] 搜狐 实验 室 . 全 网 新 闻 数 据 [ EB/OL]. [2017 - 03 - 16]. ht- 
tp :// download. labs. sogou. com/dl/. 

[13] PANTEL P, FUXMAN A. Jigs and lures; associating web queries with 
structured entities [ C ]// LIN DK. Proceedings of the 49th annual 
meeting of the Association for Computational Linguistics. Stroudsburg: 
Association for Computational Linguistics , 2011 :83 —92. 


[14] LIN T, ETZIONI O. Entity linking at web scale[ C ]//Proceedings 


La 


of the joint workshop on automatic knowledge base construction and 
Web -scale knowledge extraction. Stroudsburg: Association for 
Computational Linguistics, 2012; 84 88. 

[15] WELTY C, MURDOCK J W, KALYANPUR A, et al. A comparison 
of hard filters and soft evidence for answer typing in Watson [ C |// 
Proceedings of the 11th international conference on the Semantic Web - 
volume part II. Berlin; Springer-Verlag, 2012 :243 — 256. 

[16] ZHANG H P, YU H K, XIONG D Y, et al. HHMM based Chinese 
lexical analyzer ICTCLAS[ C ]// Proceedings of the second SIGHAN 
workshop on Chinese language processing-volume 17. Stroudsburg: As- 
sociation for Computational Linguistics , 2003 :184 — 187. 

[17] SHANNON C E, WEAVER W, WIENER N. The mathematical 
theory of communication[ J]. Philosophical Review ,1949 , 27 (4) ; 
623 — 656. 

[18] CROFT W B. Search engines; information retrieval in practice 
[M]. METZLER D, STROHMAN T. 北京 :机 械 工 业 出 版 社 ， 
2009 :1254 - 1271. 


作者 贡献 说 明 : 

陆 娜 :研究 方案 设计 ,具体 实验 ,论文 起 草 及 修订 ; 
周 鹏 程 :研究 方案 设计 和 修订 ,论文 修订 ; 

武川 :协助 方案 设计 ,参与 论文 修订 。 


Lu Na! 


Zhou Pengcheng? 


Importance Based Entity Ranking for News Documents 


Wu Chuan? 


' School of Information Science and Technology, Hainan Normal University, Haikou 571158 


? School of Information Management, Wuhan University, Wuhan 430072 


Abstract. [ Purpose/significance] We propose an importance based method for entity ranking. Entities in a parti- 


cular document show different importance. Many researches focus on documents or entities, such as text categorization and 


entity linking, while few research pay attention to the importance of entities in documents. This research has significant 


theoretical and practical value. [ Method/process] Given a document which consists of words and entities, our method 


computes the relative importance of entities in the document, and then ranks these entities based on their importance with 


respect to the document. We perform experiment on the Sogou News dataset, and use evaluation metrics such as NDCG 


and inversed pair rate to evaluate the results. | Result/ conclusion | Experimental results show that methods based on enti- 


ty frequency, TF * IDF, distribution entropy and TextRank achieve better performance , while method based on cluster co- 


efficient does not work well. In terms of NDCG, TF * IDF method reaches 95. 8696 , which is the best result and in terms 


of the inverse rate, the ensemble method reaches 84. 4696 , which is the best result. 
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